這是一個確保公平性的環節,當模型的訓練數據存在偏差時,可能會對某些群體產生不公平的影響,進而違反隱私和反歧視相關的法律。
公平性指標
差異影響:檢查模型對不同群體產生的結果是否顯著不同,通常使用80% rule來判斷模型是否存在偏差。
(* 80% rule:如果一個群體的接受率(通過率)與另一基準群體相比低於80%,就可能存在「差異影響(Disparate Impact)」,一種潛在的歧視情況)
平均預測差異:比較模型在不同群體中的平均預測結果。
混淆矩陣差異:分析模型在不同群體的準確性(如TP, FP, TN, FN)的差異。
(*TP(True Positive)、FP(False Positive)、TN(True Negative)、FN(False Negative))
(1)重新採樣(Resampling Techniques):
透過Under(or Over)-sampling平衡訓練數據中不均衡分佈,如:對佔少數的群體進行Over-sampling,確保模型在訓練時能學習到這些群體的特徵。
(2)對抗訓練(Adversarial Debiasing):
使用對抗神經網絡(Adversarial Neural Networks),一個模型學習主要任務(如分類或預測),另一個則嘗試識別數據中的偏差,通過訓練過程中的對抗學習,減少模型預測中的偏差。
(3)重新加權
2.分群校正
確保模型對不同群體的預測概率與實際結果一致,可以防止模型對某些群體過度偏向positive或negative,技術針對不同的群體進行校正,如:模型對某個群體經常高估某結果的發生概率。
3.重新標籤(Re-labeling or Hard Classification Correction)
這種方法直接修改模型輸出的預測標籤,以達到公平性。
根據預設的公平標準,(在某些情況下)模型輸出標籤會被強制修改。
最後我們需要一些技術,🥸 幫忙解釋模型決策背後的因素,也便於調整不公的情況。
1.SHAP(Shapley Additive Explanations)
它是基於遊戲理論的解釋方法,使用Shapley值分配每個特徵對模型輸出的貢獻,提供一致、精確的特徵重要性解釋。
核心:Shapley值來自「合作博弈論」,每個特徵對預測的影響被計算為該特徵對所有可能特徵組合的貢獻平均值 / SHAP 通過統一的方式解釋不同特徵的影響,無論是個別預測還是整體模型表現,其可應用在任何類型的ML模型。
2.LIME(Local Interpretable Model-agnostic Explanations)
專注提供每個單獨預測的部分解釋,通過生成一個簡單的解釋性模型來近似複雜模型的決策過程,這個模型可以更易理解。
核心:將複雜模型視為黑盒模型(如深度學習、隨機森林),並在特定樣本附近生成新樣本,然後用簡單模型(例如線性模型)來擬合這些新樣本,從而理解模型在該局部範圍內的行為 / 對原始數據進行隨機擾動,並觀察擾動後的模型輸出,來推斷哪些特徵對於該特定樣本的預測最為重要。
兩者比較:
(1)LIME更專注於局部解釋,SHAP則能同時做局部和全局解釋。
(2)SHAP的解釋精度更高,因為計算了所有可能特徵組合的影響,LIME只針對特定樣本進行局部解釋。
(3)LIME通常計算速度較快,而SHAP對於大型數據或複雜模型來說,計算成本可能較高。